WWDC 2025는 겉으로 보면 그리 요란하지 않았습니다.
ChatGPT처럼 대형 언어모델(LLM)을 떠들썩하게 자랑하지도 않았고, 로봇처럼 말하는 Siri가 등장한 것도 아니었습니다.
하지만 이 조용한 발표 속에는 애플만의 AI 철학과 기술 방향이 고스란히 담겨 있었죠.
애플은 이번 WWDC에서 "Apple Intelligence"라는 이름으로 자사 생태계에 AI를 대대적으로 통합하겠다고 선언했습니다.
Google, OpenAI, Microsoft와는 전혀 다른 길을 걷고 있는 애플의 AI 전략.
정의부터 다르다
"Apple Intelligence"는 애플이 정의한 온디바이스 기반의 개인화 AI입니다.
이름에 ‘AI’ 대신 ‘Intelligence’를 넣은 이유는 단순합니다.
애플은 기술이 아닌 ‘사용자 중심의 지능’을 원하기 때문입니다.
주요 특징
- 온디바이스 실행: 대부분의 AI 기능은 클라우드가 아닌 iPhone, iPad, Mac 자체에서 처리
- 퍼스널 컨텍스트 반영: 메일, 메시지, 캘린더 등 개인 데이터를 활용하되 철저히 보호
- 사생활 보호: 모든 AI 연산은 Private Cloud Compute로 이뤄지며, 사용자 데이터는 저장되지 않음
“Your data stays yours.”
“AI는 여러분의 일상에 조용히 스며들어야 합니다.”
항목 | 애플 | 오픈AI / 구글 / MS |
---|---|---|
AI 철학 | 개인화 + 프라이버시 중심 | 범용성 + 대규모 LLM |
처리 위치 | 대부분 온디바이스 | 대부분 클라우드 |
수익 모델 | 생태계 강화 (디바이스 판매 중심) | AI 구독, API 사용료 |
접근성 | 기기 보유자 한정 | 누구나 사용 가능 |
애플의 방식은 느리고 조용하지만, 지속가능성과 신뢰라는 무기를 갖고 있습니다.
특히 의료, 금융, 교육 등 민감한 데이터를 다루는 환경에서는 애플 방식이 더 신뢰받을 수 있죠.
애플은 이번에도 ‘느리고 조용한 방식’을 택했습니다.
그러나 그 선택은 종종 “기술적으로 부족하다”는 인식으로 이어지곤 합니다.
실제로 기술이 떨어지는가?
✔ 모델 성능에서 뒤처진 건 사실이다
애플이 이번 WWDC에서 공개한 Foundation Model은 OpenAI의 GPT-4o,
Google의 Gemini 1.5에 비해 파라미터 수, 범용성, 대화 흐름, 지식 기반에서 떨어진다는 평가가 많습니다.
Apple Intelligence는 실시간 대화형 에이전트라기보단 정적인 기능 실행 기반
Siri도 여전히 follow-up conversation(맥락 유지)이 미흡 , 멀티턴 대화, 코딩 지원, 창의적 생성은 아직 한계적
✔ 프라이버시 때문에 클라우드 제한
Private Cloud Compute는 뛰어난 보안성을 자랑하지만, 그만큼 모델 처리 능력의 상한선이 낮음
OpenAI는 초당 수백억 개의 연산을 클라우드에서 돌리는 반면
애플은 대부분을 기기 내 M1~M4 칩, 또는 제한된 프라이빗 서버에서 처리
✔ 생태계 잠금(Lock-in)의 우려
Apple Intelligence는 iPhone 15 Pro 이상, M 시리즈 칩 이상에서만 작동합니다.
그 외 구형 기기에서는 AI 기능 대부분을 사용할 수 없음
타 OS와 호환되지 않으며, 개발자가 직접 파인튜닝하거나 제어하는 것도 불가능
온디바이스 중심 스탠드얼론 모델 사용
애플은 대부분의 Apple Intelligence 기능을 기기 내부 (on-device) 에서 실행되는 경량화된 자체 언어 모델을 통해 처리합니다.
이 모델은 iOS 26, macOS Tahoe, iPadOS 26 등에 직접 탑재
Apple Silicon (M 시리즈, A17 Pro 이상) 칩에 최적화된 LLM 구조
자체 모델이기 때문에, ChatGPT나 Gemini처럼 외부 API를 호출하지 않음
특징 | 설명 |
---|---|
경량화 | 수십억 파라미터 규모의 중형 언어 모델 (추정 1~3B 파라미터 수준) |
지연 최소화 | 실시간 명령 처리, 대화 지연 없음 |
전력 효율 | 배터리 최적화 및 발열 관리 고려 |
사생활 보호 | 개인 데이터가 외부로 나가지 않음 |
Private Cloud Compute와의 하이브리드 구조도 있음
일부 기능은 온디바이스 모델로는 어렵기 때문에, 보안 강화된 애플 서버로 요청을 보내기도 합니다.
이를 애플은 Private Cloud Compute (PCC)라고 부릅니다.
- Apple Silicon으로 구동되는 전용 서버
- 애플이 운영하지만, 사용자 로그/데이터를 저장하지 않음
- 요청 후 로그가 자동 폐기되고, 사용자 ID도 남지 않음
- 오픈소스 감사를 위해 코드 공개 예정
이 구조 덕분에 애플은 클라우드의 유연성과 온디바이스의 프라이버시를 동시에 확보하려 합니다.
온디바이스 모델의 성능 요구가 높기 때문에 지원 기기 제한도 명확히 존재합니다:
지원 기기 | 비고 |
---|---|
iPhone 15 Pro / Pro Max 이상 | A17 Pro 칩 이상 필요 |
iPad & Mac | M1 이상 Apple Silicon 칩 |
그 외 구형 기기 | 대부분 Apple Intelligence 사용 불가 |
애플 AI를 위한 필수 조건: Neural Engine의 역할 확대
iPhone, iPad, Mac 등 모든 최신 애플 디바이스에는 Neural Engine이 탑재되어 있음
기존에는 Face ID, 카메라 인식, 음성 명령 등 제한적 AI 작업만 수행
이번 Apple Intelligence 발표 이후, 텍스트 생성, 요약, 명령어 분석 등 LLM 처리까지 담당
기기 | 칩셋 | 지원 여부 | 이유 |
---|---|---|---|
iPhone 15 Pro / Pro Max | A17 Pro | ✅ | 최신 Neural Engine, 고속 RAM |
M1, M2, M3 Mac / iPad | M 시리즈 | ✅ | 고성능 AI 연산 지원 |
iPhone 15 / 14 이하 | A16 이하 | ❌ | 연산 능력 부족, 메모리 한계 |
Apple Intelligence는 RAM 8GB 이상, 고속 NVMe 저장소, 고성능 Neural Engine이 필요합니다.
애플은 하드웨어, 운영체제, 모델, UI까지 모두 스스로 설계하는 몇 안 되는 기업입니다.
구분 | 애플 | 경쟁사 (구글, 삼성, MS 등) |
---|---|---|
칩 설계 | Apple Silicon (자체) | 대부분 ARM 또는 외부 의존 |
OS 통제력 | iOS, macOS, visionOS 등 직접 개발 | 제한적 커스터마이징 |
모델 구조 | Apple Foundation Model (온디바이스 최적화) | 범용 LLM (클라우드 중심) |
UI 통합 | Liquid Glass + Apple Intelligence | 파편화된 경험 많음 |
이 통합 구조 덕분에 애플은 AI 기능을 하드웨어의 설계 단계부터 고려할 수 있는 강점을 가집니다.
Apple Intelligence가 실제 구동되기 위해선 아래 조건을 만족하는 모델이 필요합니다:
요구 조건 | 설명 |
---|---|
온디바이스 실행 가능 | 수백 MB ~ 1~2GB 수준의 모델 사이즈 |
낮은 전력 소비 | 배터리 기반 기기에서의 장시간 구동 고려 |
실시간 반응성 | 지연(Latency) 수 ms 수준 유지 |
맥락 유지 최소화 | 대화형보다는 단발성 명령 중심 처리 |
사생활 보호 설계 | 로컬에서 실행되며 데이터 유출 없음 |
결국 이는 OpenAI의 GPT-4o나 Google's Gemini처럼 거대한 모델보다는, DeepSeek-MoE, MiniCPM, Phi-3, Mistral 7B,
그리고 Meta의 LLaMA 3 8B 이하 모델이 지향하는 기술 트렌드와 정확히 일치합니다.
DeepSeek-MoE
중국 Tsinghua 출신 연구팀이 개발한 Mixture of Experts 기반 모델
최대 236B 파라미터이지만, 실행 시엔 소수의 전문가만 활성화 → 연산량 대폭 감소
경량 모델인데도 코딩, 대화, 추론 등에서 성능 유지
→ 즉, “작지만 똑똑한 모델”을 지향
애플도 똑같다
Apple Intelligence는 최대한 작게 모델을 만들고, iPhone 내부에서 실행 가능한 구조로 설계
메모리·발열·속도를 고려한 ML 엔지니어링의 정수
즉, DeepSeek과 Apple은 모두 "연산 자원이 제한된 디바이스에서 똑똑하게 동작할 AI"를 만든다는 점에서 철학이 유사합니다.
일반적인 LLM 전략 | 애플의 LLM 전략 |
---|---|
클라우드 서버 기반 | 온디바이스 실행 + 프라이빗 클라우드 보조 |
최대한 많은 정보 생성 | 맥락 중심의 최소 정보 제공 |
모델 정확도 최우선 | 실용성 + 사생활 + 반응속도 최우선 |
애플은 완벽한 생성력이 아니라, "딱 필요한 정보를, 가장 빠르고, 가장 안전하게 제공"하는 걸 목표로 삼고 있습니다.
그걸 가능케 하는 게 바로 DeepSeek과 같은 경량화 LLM 아키텍처입니다.
DeepSeek‑V2‑Lite (DeepSeek‑V2-Lite)
파라미터 수: 총 16B, 토큰당 활성화 2.4B
설계 방식: Mixture-of-Experts (MoE) + MLA (Multi-head Latent Attention) → KV 캐시 압축으로 추론 속도 향상 en.wikipedia.orgen.wikipedia.org+7huggingface.co+7arxiv.org+7
장점: 7B 수준 dense 모델보다 뛰어난 성능, 단일 GPU(40GB)로도 추론 가능
의의: 애플처럼 “작지만 지능 있는” on-device AI 구조 구현 가능 사례
Gemma‑3 1B
파라미터 수: 약 1B
특징: Google의 Gemini 시리즈의 경량 버전. Android 및 Web용 LLM Inference API 최적화 github.com+5analyticsvidhya.com+5huggingface.co+5ai.google.dev
장점: 저자원 환경에서도 가능, 플랫폼 통합성 확보
MobileLLM
파라미터 수: < 1B (125M / 350M 등)
기술: 얕고 얇은 구조 + 블록 기반 weight‑sharing → 효율적이고 정확도 우수 the-sun.com+12arxiv.org+12arxiv.org+12
의의: 휴대기기나 embedded 환경에서 고성능 LLM 운용 가능성 입증
모델 | 파라미터 | 구조 | 특징 |
---|---|---|---|
DeepSeek‑V2‑Lite | 16B | MoE + MLA | 단일 GPU on-device OK |
Gemma‑3 1B | 1B | Dense | Android/Web 최적 |
MobileLLM | <1B | Dense + weight-sharing | 효율성과 정확도 우수 |
MobiLlama | 0.5B | Dense + 공유 | 모바일용 완전 추적 가능 |
Mixtral | 8×7B MoE | Sparse MoE | 고성능, sparse |
BitNet b1.58 | 2B | Ternary quantized | 메모리·연산 극절감 |
DistilBERT 등 | 66M~110M | Distilled | 가벼운 추론용 |